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联合 特征 选择 和 潜在 子 空间 回归 的 跨 媒体 检索 ， 
刘 zt. TOR", pgs 


(山东 师范 大 学 信息 科学 与 工程 学 院 , 济南 250358) 


摘 要 : 由 于 多 模式 数据 的 大 量 存 在 ， 跨 模式 检索 近来 备 受 关注 ， 并 且 通 常 涉及 两 个 基本 问题 : 相关 性 度量 和 特征 选 
择 。 目 前 的 大 多 数 方法 都 只 关注 解决 第 一 个 问题 : 将 多 模 态 数据 投影 到 一 个 公共 子 空间 中 ， 测 量 不 同 数据 模式 之 间 的 
相似 性 然后 进行 检索 。 针 对 第 二 个 问题 , 为 了 可 以 从 特征 空间 中 选择 相关 和 判别 特征 , 对 投影 矩阵 施加 21 范 数 惩罚 项 。 
同时 ， 采 用 谱 回 归 方 法 学 习 所 有 模 态 数据 共享 的 最 优 潜在 空间 正 交 约束 。 然 后 构建 一 个 图 模型 将 多 模 态 数据 投影 到 潜 
在 空间 中 ,保留 了 模 态 内 的 相似 性 关系 。 在 两 个 数据 集 进行 了 广泛 的 实验 ， 跨 模 态 检索 任务 的 实验 结果 表明 显示 了 本 
文 提出 的 方法 的 有 效 性 。 
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Joint feature selection and latent subspace regression for cross-media retrieval 
Liu Yun!, Yu Zhi Lou’', Fu Qiang? 
(School of Information Science & Engineering Shandong Normal University, Jinan 250358, China) 


Abstract: Cross-modal retrieval has recently drawn much attention due to the widespread existence of multi-modality data, 


generally involves two basic problems: the measure of relevance and coupled feature selection. However, most of the current 


methods only focus on solving the first problem: To mapping multi-modality data into a common subspace, in which the 


similarity between different modalities of data can be measured. The 21-norm penalties are imposed on the projection matrices 


separately to solve the second problem, which selects relevant and discriminative features from different feature spaces. Then 
this paper adopt the spectral regression method to learn the optimal latent space shared by data of all modalities based on the 
orthogonal constraints. And this paper construct a graph model to project the multi-modality data into the latent space, which 
preserves the intra-modality similarity relationships. The paper conduct extensive experiments on two datasets. The 
experimental results of cross-modal retrieval show the method is effective. 


Key words: cross-media retrieval; feature selection; subspace learning; spectral regression 


分 析 CCCA) 员 是 最 流行 的 方法 ， 它 寻找 两 组 变量 的 最 优 基 本 


0 a8 向 量 建立 相关 性 来 学 习 潜在 子 空 间 。CCA 可 以 表述 如 下 

随 着 互联 网 技术 的 迅速 发 展 ， 多 模 态 数据 (如 图 像 、 文 本 、 —ÀÀ 
视频 或 音频 ) 已 经 在 互联 网 上 广泛 使 用 。 跨 媒体 检索 的 目的 是 Hte 
将 一 种 类 型 的 数据 作为 查询 来 检索 另 一 种 类 型 的 相关 数据 对 s t W Ap] WS XX o7 
象 。 例 如 ， 用 户 可 以 使 用 文本 来 检索 相关 图 片 (图 Do, mp Jp: À RU, 代表 每 种 模 态 特征 的 映射 矩阵 。 
通过 提交 有 趣 的 图 像 作为 查询 来 搜索 相关 的 文字 描述 (图 2) 。 基于 CCA， 其 他 算法 也 被 提出 来 处 理 不 同 横 态 问题 ， 如 信 
跨 模 式 检索 使 用 户 可 以 将 任何 形式 的 内 容 作为 查询 检索 各 种 模 ”最 小 二 乘 (PLS) 中 、 双 线性 模型 BLM) 本 ， 它 们 也 试图 学 习 
态 的 数据 ， 比 单 模 态 检索 的 结果 更 全 面 。 子 空间 来 进行 跨 模 态 检索 。 

然而 多 模 态 数据 通常 有 不 同 的 特征 空间 ， 不 同 模 态 特征 之 除了 CCA, PLS 和 BLM 之 外 ， 还 有 一 些 方法 可 用 于 解决 
间 的 异 质 差异 是 跨 媒 体检 索 任务 的 一 项 巨大 的 挑战 。 解 决 这 个 。 跨 模 态 问 题 。 如 ，Mahadevan 等 人 外 提出 最 大 协 方差 展开 ， 将 


问题 ,最 直接 的 方法 是 将 不 同 模 态 的 数据 映射 到 一 个 共享 空间 ， ”来 自 不 同 输 入 模 态 的 数据 进行 降 维 的 流 形 学 习 算法 。Mao 等 人 
在 共享 空间 中 不 同 模 态 之 间 的 相似 性 可 以 直接 测量 。 典 型 相关 ”和 龟 介 绍 了 一 种 平行 字段 对 齐 检索 的 跨 媒体 检索 方法 ， 从 矢量 场 
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的 角度 整合 了 一 个 流 形 对 齐 框架 ,Lin 等 人 中 提出 了 一 种 通用 的 
判别 特征 提取 (CDFE) 方法 来 学 习 一 个 共同 的 特征 子 空间 ， 
其 中 散布 矩阵 内 与 散布 矩阵 之 间 的 差异 被 最 大 化 。Sharmal" 将 
线性 判别 分 析 CLDAO 和 边际 Fisher 分 析 (MFA) 扩展 到 它们 
的 多 视图 中 ， 如 广义 多 视图 LDA (GMLDA) 和 广义 多 视图 
MFA (GMMFA) ， 使 用 它们 处 理 跨 媒体 检索 问题 .GMLDA 和 


GMMFA 考虑 了 语义 类 别 ， 并 且 获 得 了 较 好 的 结果 。 


图 1 文本 检索 图 像 


图 2 图 像 检索 文本 


此 外 ，Zhai 等 人 名 进一步 提出 了 联合 表示 学 习 ORL) Jj 
法 ， 联 合 使 用 成 对 关联 和 语义 信息 到 一 个 统一 的 优化 框架 中 。 


Zhuang 等 人 中 提出 了 一 个 监督 耦合 词典 学 习 算 法 ， 其 目的 是 为 
跨 媒 体检 索 学 习 耦 合 词 典 。 此 外 ，Zhai 等 人 0n0 提 出 了 异 构 度 量 
学 习 方法 ， 能 够 测量 不 同 媒体 类 型 之 间 的 内 容 相 似 度 。 
受 深 度 学 习 近 期 进展 的 启发 ，Ngiam 等 人 0 应 用 深度 网 络 
学 习 多 种 模 态 的 特征 ， 其 重点 是 学 习 语音 音频 的 表示 ， 并 与 中 
层 的 视频 相 结 合 。 深 度 限制 玻 耳 兹 曼 机 器 (2 成 功 地 学 习 多 模 态 
数据 的 联合 表示 ， 它 首先 使 用 单独 的 模 态 友 好 的 潜在 模型 来 学 
习 每 个 模 态 低 维 表示 ， 然 后 融入 到 更 高 维度 的 深层 架构 中 的 联 
合 表示 中 。 受 深度 网 络 的 表示 学 习 的 启发 Andrew 等 人 [3 提供 
了 深度 典型 相关 分 析 (DCCA) ， 这 是 一 种 深度 学 习 方法 ， 可 
以 学 习 不 同形 式 的 数据 的 复杂 非 线 性 投影 ， 从 而 使 得 结果 表示 
呈 高 度 线性 相关 。 

然而 其 中 大 多 数 主 要 集中 在 相关 性 度量 上 ， 耦 合 特征 选择 
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T/ Ne, SUISSE MERET UAE 


0, 反之 


其 中 : 和 代表 第 上 类 的 样本 数量 。 在 学 习 的 潜在 子 空间 中 ， 和 希 
望 保持 邻 域 关系 并 且 属 于 同一 类 的 样本 应 该 共享 相同 的 表示 。 
Y 表示 第 i 个 样本 在 学 习 的 潜在 空间 中 的 表示 。 潜 在 空间 学 习 
的 目标 函数 是 


Jr » li jb t; - tr yi s.t. yl'y =/ 3 


其 中 : 4.=2-w 是 图 拉 普 拉 斯 矩阵 ;D AEST fü BE, B. 25; 727 Wi ， 


。 式 (3) 可 以 通过 特征 值 分 解 解决 。 


Y z|vry2... va]. 


1.2 ”潜在 空间 回归 与 特征 选择 
1.2.1 特征 选择 

特征 选择 旨 在 使 用 选择 标准 来 定位 一 组 最 佳 特征 ， 通 过 保 
留 一 些 原始 特征 ， 保 持 了 原始 特征 的 物理 意义 ， 并 为 模型 提供 
了 更 好 的 可 读 性 和 可 解释 性 。 它 是 模式 分 析 中 广泛 使 用 的 一 项 
重要 技术 。 它 通过 消除 不 相关 和 多 余 的 特性 来 降低 数据 的 差异 
性 ， 减 少 了 存储 和 计算 成 本 ， 提 高 学 习 的 准确 性 ， 并 有 助 于 更 
好 地 理解 学 习 模 型 或 数据 。 因 此 ， 特 征 选择 被 视 为 有 效 的 降 维 
技术 。 
本 文 首先 简要 介绍 


下 这 里 使 用 的 一 些 符号 。 对 于 矩阵 


m ARRIERE SE i IT, "y RIERS J 9l. AREE 


M E grim " 


2 
4 的 上 范式 定义 为 : Wl = X] War fedet w peti 2 


f 


范式 的 和 : 


m 


Mz = X 
21 E 2° 
1.2.2 潜在 空间 回归 与 特征 选择 


假设 给 出 了 来 M 


P RSM HAE, 


X= PAn xl acts M , epit As pU RE dp HERO, n 


没有 得 到 很 好 的 解决 。 由 于 现实 世界 数据 的 维度 往往 很 高 ， 有 


多 余 和 不 相关 的 特征 ,所 以 选择 不 同 模 态 数据 的 辨别 特征 很 重 
要 。 


1 ”联合 特征 选择 与 潜在 空 


1.1 潜在 空间 学 习 

根据 式 〈1) 可 以 发 现 ，CCA 试图 将 不 同 模 态 的 特征 投影 
到 正 交 空间 中 使 不 同 模 态 之 间 的 相关 性 最 大 。 在 这 方面 ， 希 望 
通过 正 交 约束 学 习 一 个 公共 空间 ， 而 不 是 直接 使 用 二 进 制 标签 
空间 。 由 于 谱 回 归 (SR) 0 在 特征 学 习 中 有 非常 好 的 表现 ， 并 
目 图 虑 入 方法 可 以 很 好 地 表征 局 部 关系 ， 采 用 SR 来 学 习 潜在 
空间 。 本 文 首先 构造 一 个 图 来 获得 模 态 内 部 之 间 的 关系 。 对 于 
有 监督 的 检索 任务 ， 基 于 标签 信息 ， 权 重 矩 阵 W 定义 如 下 : 


s 间 学 习 、 回 归 


是 样本 的 总 数目 。 通 常 ， 在 跨 媒体 检索 任务 中 将 /设置 为 2， 
即 图 像 与 文本 。 给 定 潜在 空间 re pxe ， 将 每 个 样本 回归 到 民 
低 维 撕 入 。 对 于 每 个 模 态 的 特征 c, e WP ”， 想 要 学 习 映 射 抵 
阵 矩 阵 Ue RP 将 每 个 模 态 特 征 映射 到 公共 空间 。 潜 在 空间 
梧 归 的 目标 函数 可 以 表示 为 

M 2 
min p loa, E Buy], vtr UPXpLXpUp 4 


其 中 : 8 和 7 是 平衡 参数 。 式 〈4) 中 的 回归 问题 可 以 看 做 是 一 
个 扩展 的 正则 化 最 小 二 乘 问题 。 


X OD 的 第 二 项 为 特征 选择 ， 通 过 


文献 [15] 中 对 21 范式 
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RB Jo. æ 


i 
“p 


d 
RAF, ENF x - Tres E E F E: 
Jsf 


平滑 项 , 通常 被 设置 成 一 个 很 小 的 数值 。 可 以 证 明 r x = Jx2ve 


满足 以 下 所 有 条 件 : 


x 2f x KR EXE, 
xf Vx ER, 上 十 [jy 
f x =f -x ,Vx€R, 

fx ÆREÆC , 


f ^0! 3»0 lim F x /x^ -0 5 
X 一 co 


然后 ,可 以 按照 下 面 的 引 理 1 以 半 二 次 型 方式 “优化 x 。 


引 理 1 Wf x 是 满足 式 CO 中 所 有 条 件 的 函数 ， 对 于 固 
定 的 | ， 存 在 一 个 双重 潜在 函数 : 
o vi |: at A ros 6 
2 SEA 2 


其 中 : s 由 最 小 化 函数 8 s Dog. 


根据 引 理 1， 式 〈4) 中 的 目标 函数 可 以 重新 表述 如 下 : 


"i 
Ty T T T T 
lr Y | B tr UpRpUp + Y tr UpXpLXpUp 


M 
min Y, 
U p-1 


hæ 21 范式 的 附加 向 量 ， 第 i 个 元 素 


其 中 : Ho Diag fps 


phil, ns 的 元 素 规则 化 如 下 : 


值得 注意 的 是 ， 在 理论 上 可 以 为 零 。 但 是 不 能 将 设 


置 为 零 ， 否 则 迭代 算法 不 能 保证 收敛 。 为 了 解决 这 个 问题 ， 在 


X (8) 中 规则 化 性 。 


对 于 方程 式 的 第 三 项 , 拉 普 拉 斯 图 是 保留 原始 数据 的 结构 。 
在 这 里 本 文 使 用 与 式 (2) 中 相同 的 权重 矩阵 1 来 定义 邻 域 关 系 。 


1.3 潜在 空间 学 习 、 回 归 与 特征 选择 


通过 结合 式 (3) 和 CO 中 的 目标 函数 ， 得 到 统 标 函 

数 : 
f UY = arg min tr rir 

UY'Y = lo 

Rar luz. M reike PIT PSP 

2; pp F p'pUp * Y tr Up pEApUp 

p=1 
其 中 : a, BR 7 是 平衡 参数 。 
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I X, €i 联合 特征 选择 和 潜在 子 空间 回归 的 跨 媒体 检索 


对 于 上 述 问题 ,通过 固定 了 (或  ， 可 以 直接 计算 U (或 
Y) 。 将 在 下 面 给 出 一 个 关于 联合 优化 问题 的 封闭 解决 方案 。 


固定 Y, 在 式 (9) 中 相对 于 V 是 凸 的 。 通 过 对 目标 函数 中 


的 4 求 导 使 其 等 于 零 ， 可 以 得 到 


oF UY 


Up 


= 2 XoXbUp-Xpr+B RoUpty XpLXbUp =0 10 


然后 可 以 通过 计算 得 到 相应 的 投影 矩阵 ; 


-1 
- T T = 
U E XpXp*B Roty XplXp X,Y pole 11 


将 式 OD 中 的 如 代入 式 (9) ， 式 (9) 的 第 二 部 分 可 以 


蔡 换 为 


2 
Re 7 $3 
luas NM B Tr UR Up + y tr UD XpLXD Up 


M 
a » 
-1 


y (tr UL XpXLUp -2tr UL 
cg » 
p71|* B Tr UbRoUp +Y tr UD XpLXD UD 


XpY *tr Yl LY 


4 (ero XpXĪ +B Rp*y XpLXL Up We C LY ) 
P 


-t|yT y 


€: 


M KEY LY 
a Inza © Xp Cor B Rer XpLXh ) Xp 
p-1 


Jüxbg XO - X X «BR ^X LT, RD 中 关于 了 的 优 


化 问题 可 以 重新 表述 为 


min Jr Y 


/= 


E rue 
L*a ln-a X X505 Xp 
p-1 


M z 
Y TORLAR Lea 1, 7a Y X505 Xp 的 特征 分 解 得 到 解 
EE 


决 ， 选 取 20 个 最 小 特征 值 相对 应 的 特征 向 量 。 


总 之 ， 可 以 有 效 地 解决 模型 的 近似 解 。 对 于 潜在 的 空间 学 
习 ， 可 以 很 容易 地 看 到 在 式 〈13) 中 得 到 的 正 交 空间 能 够 很 好 
也 保持 基于 图 形 的 标签 信息 的 相关 性 ， 并 且 与 多 模 态 特征 密切 
相关 。 对 于 潜在 的 空间 回归 与 特征 选择 ， 投 影 矩 阵 得 到 了 很 好 
的 正则 化 ， 在 投影 过 程 进行 特征 选择 ， 选 取 有 效 的 特征 ;在 下 
归 到 公共 空间 时 也 可 以 保持 局 部 关系 。 


< 


2.1 实验 设置 

本 文 在 两 个 常用 数据 集 评 估 了 提出 的 方法 , BU Wiki 图 像 文 
本 数据 集 00 和 Pascal VOC05 数 据 集 。 本 文 主要 考虑 图 像 查询 文 
本 数据 库 和 文本 查询 与 图 像 数 据 库 两 种 跨 模 态 检索 任务 。 将 提 
出 的 方法 与 几 种 相关 的 最 先进 方法 进行 比较 ， 如 PLS Ul. 
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BLMP!, CCAU!, CDFE!9, CCA-3VU?, GMLDAW I、 GMMFACU!, 


LCESU9, SMU7I, SCMUI, 
*PLS, BLM, CCA: 是 三 种 经 典 方 法 ， 使 用 成 对 信 


习 多 模 态 数据 中 的 常见 潜在 子 空间 。 在 公共 子 空间 中 ， 
量 不 同 数据 模式 之 间 的 相似 性 。 
“CDFE: 学 习 一 个 共同 的 特征 子 空 间 ， 其 中 散布 矩 
和 散布 矩阵 之 间 的 差异 被 最 大 化 。 
“CCA-3V: 三 视图 典型 相关 性 分 析 。 


可 以 测 


阵 内 部 


*GMLDA: 找到 一 组 投影 矩阵 ， 使 得 来 自 同 一 类 的 样本 彼 


此 接近 而 来 自 不 同类 别 的 样本 分 开 。 
*GMMFA: Æ CCA 的 监督 扩展 ,同时 考虑 CCA 约 
XAR. 


束 和 语 


"LCFS: 将 耦合 线性 回归 ，21 范 数 和 迹 范 数 整合 到 
最 小 化 公式 ， 子 空间 学 习 和 耦合 特征 选择 可 以 同时 执 
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M 


一 个 通 


行 。 


*SM: 在 高 维度 的 抽象 层面 上 分 析 图 像 和 文本 的 表示 。 更 
具体 地 说 ， 它 使 用 多 类 逮 辑 回归 来 对 图 像 和 文本 进行 分 类 。 


*SCM: 是 CCA 和 SM 的 组 合 。SCM 首先 使 用 CC 
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d 


A 获得 


特征 表示 , 然后 使 用 特征 表示 来 构建 语义 空间 , 这 可 以 提高 CM 


和 SM 的 检索 性 能 
为 了 评估 
库 与 文本 查询 图 像 数 据 库 两 种 跨 模 态 检 索 任务 。 


un 


[提出 的 方法 的 性 能 ， 进 行 了 图 像 查询 文本 数据 


个 维度 表示 。128 4 


方法 和 其 他 相关 算法 


于 训练 , 693 个 图 像 文 本 对 用 于 测 
潜在 的 Dirichlet 分 配 (LDA) 来 提取 10 
È SIFT 描述 子 直方 图 2 用 于 表示 图 像 。 

本 文 设置 a =0.001,r=14and B =4。 表 1 显示 了 本 文 的 


图 3、4 显示 了 跨 模 态 检 索 


EL7 包 含 来 自 10 个 专业 类 的 2 866 个 图 像 文 本 
对 。 将 2173 个 图 像 文本 对 用 
试 。 对 于 文本 ， 采 


的 MAP 分 数 。 


的 召回 率 。 本 文中 对 图 像 查询 的 MAP 分 数 为 0.287 1， 对 文本 


查询 的 MAP 分 数 为 0.223 2, KELIN 


定义 为 : 


1 R 
AP=- X Prör 
77=7 


平均 平均 精度 (MAP) 0 是 跨 模 态 检索 的 经 典 性 能 评估 标 
准 。 有 具体 来 说 ， 给 定 一 组 查询 ， 每 个 查询 的 平均 精度 CAP) 被 


其 中 : 了 是 在 检索 集合 中 相关 文档 的 数量 ; P(r) 表 示 前 个 检索 


文档 的 精度 。 如 果 第 7 个 检索 到 的 文件 是 相关 的 相关 代表 属 


于 查询 的 类 ) ， 则 5 + n 否则 5 r =0。 


然后 对 查询 集中 所 有 查询 的 AP 值 进行 平均 来 计算 MAP. 


MAP 值 越 大 ， 跨 模 态 检索 的 表现 越 好 。 
除了 MAP 之 外 ， 本 文 还 使 用 精度 召 
法 的 有 效 性 。 
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线 来 评估 不 同方 
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图 3 Wikipedia 数据 集 上 图 像 检 索 文本 召回 率 比 较 


ti 于 之 前 的 算法 。 由 于 加 入 


了 语义 信息 ， 可 以 看 到 CDFE, GMMFA., GMLDA, CCA-3V 
和 本 文 方法 比 PLS、BLM 和 CCA 表现 更 好 。 


表 1 Wikipedia 数据 集 的 跨 媒 体检 索性 能 比较 
平均 精度 均值 /mAP 
方法 
图 像 查询 文本 查询 平均 值 
PLS 0.2402 0.1633 0.2032 
BLM 0.2562 0.2023 0.2293 
CCA 0.2549 0.1846 0.2198 
CDFE 0.2655 0.2059 0.2357 
GMMFA 0.2750 0.2139 0.2445 
GMLDA 0.2751 0.2098 0.2425 
CCA-3V 0.2752 0.2242 0.2497 
LCFS 0.2798 0.2141 0.2470 
Proposed 0.2871 0.2232 0.2552 
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2.3 Pascal VOC 数据 集 实验 结果 
Pascal VOC 数据 集 08 由 来 自 
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率 比 较 


mt 


20 个 不 同类 别 的 5011/4952 


(训练 /测试 ) 图 像 标 签 对 组 成 。 在 实验 中 选择 仅 对 应 一 个 对 象 


的 图 像 ， 这 导致 训练 集合 为 2 808 对 ， 测 试 集合 为 2 841 对 。 
1512 维 GIST 特征 来 表示 图 像 ,399 维度 词 频 特征 来 表示 文 


本 文 设置 a =0.01,r=3and B =4。 表 2 显示 了 本 文 的 方 


询 的 MAP 分 数 为 0.223 2， 表 现 优 于 之 前 的 算法 。 
表 2 Pascal VOC 数据 集 的 跨 媒 体检 索性 能 比较 


法 和 其 他 相关 算法 的 MAP 分数 。 图 5、6 显示 了 跨 模 态 检 索 的 
召回 率 。 本 文中 对 图 像 查询 的 MAP 分 数 为 0.287 1， 对 文本 查 


ChinaXiv 合 作 期 刊 | 
刘 A, Pi 联合 特征 选择 和 潜在 子 空 间 回 归 的 跨 媒体 检索 


平均 精度 均值 /mAP 
方法 
图 像 查 询 文本 查询 平均 值 
PLS 0.2757 0.1997 0.2377 
BLM 0.2667 0.2408 0.2538 
CCA 0.2655 0.2215 0.2435 
CDFE 0.2928 0.2211 0.2569 
GMMFA 0.3090 0.2308 0.2699 
GMLDA 0.3094 0.2448 0.2771 
CCA-3V 0.3146 0.2562 0.2854 
LCFS 0.3438 0.2674 0.3056 
Proposed 0.4043 0.3264 0.3653 
2.4 不 同 的 特征 类 型 的 表现 
本 文 还 使 用 Wiki 数据 集中 图 像 和 文本 的 不 同类 型 的 特征 


T 


来 测试 跨 模 态 检索 的 性 能 。 
外 ， 对 于 图 像 ， 通 过 Caffe 提取 了 4 096 维 的 图 像 CNN 特征 ; 


除了 Wiki 数据 集 本 身 提供 的 特征 


T 


对 于 文本 , 通过 LDA 提取 100 维 的 文本 特征 。 表 3 显示 了 Wiki 
数据 集 上 具有 不 同类 型 特征 的 GMMFA, GMLDA, SM 和 SCM 


的 MAP 分 数 。 
表 3 Wikipedia 数据 集 的 跨 媒 体检 索性 能 比较 
平均 精度 均值 /mAP 
方法 . - 
图 像 查询 文本 查询 平均 值 
GMMFA 0.371 0.322 0.346 
GMLDA 0.372 0.322 0.347 


SCM 0.351 0.324 0.337 
SM 0.403 0.357 0.380 
Proposed 0.4132 0.3731 0.3932 

3 ”结束 语 


在 本 文中 提出 了 一 种 新 的 联合 学 习 框架 来 解决 跨 模 态 检 索 


问题 ， 该 框架 包括 不 同 模 态 的 潜在 空间 学 习 ， 用 于 特征 选择 的 
21 范式 、 潜 在 空间 回归 以 及 图 模型 。 在 所 提出 的 框架 下 ， 学 习 
不 同 的 投影 矩阵 以 将 不 同 的 模 态 数据 映射 到 公共 子 空 间 ， 并 且 


在 投影 过 程 中 选择 不 同 模 态 的 相关 和 判别 特征 ， 使 用 图 模型 表 
征 局 部 关系 。 Æ Wikipedia 数据 集 和 Pascal Voc 
的 实验 结果 表明 所 提出 的 方法 提高 了 多 模 态 之 间 的 检索 效率 。 

在 以 后 的 工作 中 ， 可 以 通过 添加 模 态 之 间 的 相关 性 ， 实 现在 映 
射 的 
到 最 优 的 表示 ， 从 多 视图 空间 学 习 共 同 的 特征 空间 。 


两 个 数据 集 上 


< 同 的 空间 中 保持 模 态 之 间 的 关系 ， 或 结合 多 视图 从 而 找 
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